24 - Mimik aus der Dose: Videomanipulation in Echtzeit [ID:7071]

50 von 368 angezeigt

Dieser Audiobeitrag wird von der Universität Erlangen-Nürnberg präsentiert.

Gut, also herzlich willkommen. Ich hatte ja gerade schon eine nette Einführung,

eigentlich wurde schon das meiste erzählt, aber gesehen haben sie es jetzt noch nicht. Ich möchte

den Vortrag jetzt aber erstmal in zwei Teile gliedern und zwar ist eigentlich der wesentliche

Teil unseres Systems oder der größere Teil zumindest ein so genannter Face Tracker. Ja was

ist Face Tracking? Ja sie sehen hier ein Video von mir und sie sehen auch gleich was dieses System

hier mit diesem Video veranstaltet. Es nimmt nämlich ein dreidimensionales Modell meines

Gesichtes auf. Also was wir hier drüber gezeichnet sehen, das ist jetzt also eine 3D Maske die hat

der Computer anhand dieses Videobildes berechnet. Also von meinem 3D Gesicht besteht jetzt so ein

3D Modell und ja das ist ein bekanntes Problem aus der Informatik, wie man sowas machen kann,

wie man sowas effizient hinkriegt. Da gibt es eine ganze Reihe von Anwendungen. Die Hauptanwendung

ist wahrscheinlich die Filmindustrie, in der wird sowas sehr häufig gemacht. Ich zeige da gleich

auch noch mal kurz ein Bild, weil damit möchte man einfach Gesichtsmimik übertragen auf irgendwelche

virtuellen Charaktere, auf Monster, einen Zwerg, einen Hund, was weiß ich. Also da wird so ein

Face Tracking benötigt. Es gibt aber auch Anwendungen in der Medizin beispielsweise. Man

könnte sich also sehr gut vorstellen, dass man mit so einem System den Schlaganfallpatienten hilft,

wieder eine normale Mimik zu trainieren oder für Telekonferenzen. Das wäre sicherlich auch eine

sehr spannende Anwendung. Viele Leute oder mehrere Leute sitzen vor dem Rechner, von allen wird so ein

3D Modell des Gesichtes aufgenommen und dann kann man virtuell einen großen Konferenzraum bestücken

und sieht jetzt also diese verschiedenen Gesichter wirklich so gemeinsam um den Tisch sitzen. Und auch

sonst kann man sich da sicherlich noch viele solche Anwendungen überlegen. Und das Besondere

bei diesen zwei Anwendungen, Medizin und Telekonferenzen, ist, dass das da auch in

Echtzeit funktionieren muss. Das heißt, es muss möglich sein von dem aufgenommenen Gesicht in

Echtzeit diese Maske zu generieren und das stellt besondere Anforderungen und das macht unser System.

Aber vielleicht noch mal ganz kurz, wie so was in der Filmindustrie passiert, um mal zu zeigen,

dass das ein doch schwerwiegendes Problem ist. Dieses Bild zeigt so ein Face Tracking-System und

man sieht, dass es jetzt also nicht unbedingt ein System ist, wo man einfach so unbeschwert

aufspielen kann. Dem Schauspieler oder in dem Fall glaube ich Schauspielerin werden also hier

Marker, so Punkte ins Gesicht geklebt. Das sind also Marker, die dann später im Bild besonders

gut zu erkennen sind und anhand derer kann man dann also relativ leicht die Gesichtsbewegungen

verfolgen und dann sind außenrum hier halt noch alle möglichen Kameras und so weiter montiert,

die also dann hier die Performance aufnehmen. Mit solchen Systemen werden Filme gemacht,

die sie aus dem Kino kennen, also zumindest computergenerierte Filme, werden also mit

solchen Systemen heute noch gemacht und das ist natürlich klar, dieses Marker aufbringen ist

aufwendig und das ist jetzt nicht gerade eine Umgebung, wo man ja also frei Schauspielern kann.

Okay unser System, hier noch mal das was wir gerade gesehen haben, unser System funktioniert

ohne Marker. Wir brauchen einfach nur ein ganz normales Kamerabild, wie man es also von jeder

Webcam bekommt, also das ist ein normales Bild einer Webcam und es funktioniert in Echtzeit,

jetzt nicht auf einem ganz einfachen Rechner, man braucht schon einen guten Rechner, aber jetzt

auch keinen exorbitant teuren und wenn wir dann auch noch sehen, das Modell das rauskommt,

ist recht gut. Wir können das also wirklich so wieder geben, dass man also damit einen

realistischen Eindruck kriegt, das werden wir nachher noch sehen. Okay, ja also wie funktioniert

jetzt sowas? Ich werde jetzt nicht ganz tief in die technischen Details gehen, aber das Grundprinzip

kann ich Ihnen glaube ich ganz gut erklären und zwar basiert das Ganze auf einem, ja was wir nennen,

parametrischen Gesichtsmodell. Was ist das? Der Herr Thies, von dem übrigens dieses System im

Wesentlichen ist, hat jetzt hier gerade schon mal hier jetzt ein Fenster aufgemacht, wo wir dieses

parametrische Gesichtsmodell sehen können. Das ist einfach ein Modell eines Gesichtes, das ist

entstanden aus ungefähr 200 Scans von realen Personen, die wurden also in so ein Gerät

reingesetzt, mit dem durchaus aufwendig so ein 3D Modell des Gesichts erfasst wurde. Und aus

diesen vielen Modellen hat man jetzt erstmal ein Durchschnittsgesicht ausgerechnet. Das ist das

Teil einer Videoserie :

Wissenschaft im Schloss

Presenters

Prof. Dr. Marc Stamminger

Zugänglich über

Offener Zugang

Dauer

00:38:20 Min

Aufnahmedatum

2016-11-14

Hochgeladen am

2016-12-01 12:00:51

Sprache

de-DE

Nichts ist mehr, wie es scheint: Forscher der FAU haben zusammen mit Partnern der Universität Stanford und des Max-Planck-Instituts für Informatik in Saarbrücken eine Technologie entwickelt, mit der sich Mimik und Lippenbewegungen eines Menschen erfassen und auf das Videobild eines anderen übertragen lassen – in Echtzeit.

Prof. Dr. Stamminger zeigt in seinem Vortrag wie die Facial Reenactment Software (Face2Face) funktioniert: Das Programm erkennt Mimik und Lippenbewegungen eines Menschen in einem Video und überträgt diese im gleichen Moment auf das Videobild eines anderen. Bei computeranimierten Filmen werden ähnliche Technologien seit Jahren eingesetzt – jedoch mit viel größerem Aufwand. In Zukunft könnte die Software bei Simultanübersetzungen, Filmsynchronisationen aber auch zum Erlernen der eigenen Gesichtsmimik nach einem leichten Schlaganfall eingesetzt werden.

Tags

Per RSS abonnieren